Introducción

José es un diseñador de juegos de mesa. Crea las reglas, diseña los gráficos, escoge su tema, número de jugadores y duración promedio del juego que tiene en mente. José es una persona tímida, y a pesar de que sus juegos suelen gustarle a sus amigos, él nunca ha querido publicarlos por miedo a que no sean bien recibidos. Se quiere demostrar a José, con una base de datos de calificaciones históricas de juegos de mesa, cómo hubieran sido recibidos sus juegos en promedio en la época que los fue creando.

Los datos a utilizar vienen de esta base de datos: (board_games)* que, en cambio, vienen de la página Board Game Geek.

Instalación de Paquetes

Procedemos para empezar en instalar los siguientes paquetes, se puede omitir este paso si ya se tienen previamente instalados. Aquí una lista de los cuales vamos a necesitar.

#install.packages("data.table")
#install.packages("h2o")
#install.packages("ggplot2")
#install.packages("ggthemes")
#install.packages("data.tree")
#install.packages("tidyverse")
#install.packages("modeldata")
#install.packages("DataExplorer")
#install.packages("vtree")
#install.packages("caTools")
#install.packages("rpart")
#install.packages("rpart.plot")
#install.packages("lares")
#install.packages("tidymodels")
#install.packages("h2o")
#install.packages("caret")
#install.packages("doParallel")
#install.packages("caTools")

Cargar Librerías

Usando ‘library’ cargamos las librerías, con las cuales vas a hacer uso de las diferentes funciones.

library("data.table")
library("h2o")
## 
## ----------------------------------------------------------------------
## 
## Your next step is to start H2O:
##     > h2o.init()
## 
## For H2O package documentation, ask for help:
##     > ??h2o
## 
## After starting H2O, you can use the Web UI at http://localhost:54321
## For more information visit https://docs.h2o.ai
## 
## ----------------------------------------------------------------------
## 
## Attaching package: 'h2o'
## The following objects are masked from 'package:data.table':
## 
##     hour, month, week, year
## The following objects are masked from 'package:stats':
## 
##     cor, sd, var
## The following objects are masked from 'package:base':
## 
##     %*%, %in%, &&, ||, apply, as.factor, as.numeric, colnames,
##     colnames<-, ifelse, is.character, is.factor, is.numeric, log,
##     log10, log1p, log2, round, signif, trunc
library("ggplot2")
library("ggthemes")
library("data.tree")
library("tidyverse")
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v tibble  3.1.2     v dplyr   1.0.6
## v tidyr   1.1.3     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.1
## v purrr   0.3.4
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::between()   masks data.table::between()
## x dplyr::filter()    masks stats::filter()
## x dplyr::first()     masks data.table::first()
## x dplyr::lag()       masks stats::lag()
## x dplyr::last()      masks data.table::last()
## x purrr::transpose() masks data.table::transpose()
library("modeldata")
library("DataExplorer")
library("vtree")
library("caTools")
library("rpart")
library("rpart.plot")
library("lares")
library("tidymodels")
## Registered S3 method overwritten by 'tune':
##   method                   from   
##   required_pkgs.model_spec parsnip
## -- Attaching packages -------------------------------------- tidymodels 0.1.3 --
## v broom        0.7.6      v rsample      0.1.0 
## v dials        0.0.9      v tune         0.1.5 
## v infer        0.5.4      v workflows    0.2.2 
## v parsnip      0.1.6      v workflowsets 0.0.2 
## v recipes      0.1.16     v yardstick    0.0.8
## -- Conflicts ----------------------------------------- tidymodels_conflicts() --
## x dplyr::between()      masks data.table::between()
## x yardstick::conf_mat() masks lares::conf_mat()
## x scales::discard()     masks purrr::discard()
## x dplyr::filter()       masks stats::filter()
## x dplyr::first()        masks data.table::first()
## x recipes::fixed()      masks stringr::fixed()
## x dplyr::lag()          masks stats::lag()
## x dplyr::last()         masks data.table::last()
## x yardstick::mae()      masks lares::mae()
## x yardstick::mape()     masks lares::mape()
## x dials::prune()        masks rpart::prune()
## x yardstick::rmse()     masks lares::rmse()
## x yardstick::rsq()      masks lares::rsq()
## x yardstick::spec()     masks readr::spec()
## x recipes::step()       masks stats::step()
## x purrr::transpose()    masks data.table::transpose()
## * Use tidymodels_prefer() to resolve common conflicts.
library("h2o")
library("caret")
## Loading required package: lattice
## 
## Attaching package: 'caret'
## The following objects are masked from 'package:yardstick':
## 
##     precision, recall, sensitivity, specificity
## The following object is masked from 'package:purrr':
## 
##     lift
library("doParallel")
## Loading required package: foreach
## 
## Attaching package: 'foreach'
## The following objects are masked from 'package:purrr':
## 
##     accumulate, when
## Loading required package: iterators
## Loading required package: parallel
library("caTools")

Ánalisis Descriptivo, Data Engineering

Leemos nuestro dataset

En este caso usamos read.csv. Procedemos a leer:

board_games <- read.csv("./board_games.csv") 

Observación de las primeras líneas

  • game_id Identificador único
  • description Descripción corta
  • image URL con imagen del juego
  • max_players Jugadores máximos
  • max_playtime Tiempo máximo de juego
  • min_age Edad mínima
  • min_players Jugadores mínimos
  • min_playtime Tiempo mínimo de juego
  • name Nombre del juego
  • playing_time Tiempo promedio de juego
  • thumbnail URL con thumbnail del juego
  • year_published Año de publicación
  • artist Diseñador gráfico del juego
  • category Categorías del juego (separadas por coma)
  • compilation Si es parte de una compilación, nombre de la compilación
  • designer Diseñador del juego
  • expansion Si hay una expansión, el nombre de la expansión
  • family Familia, equivalente a editora
  • mechanic Mecánicas, separadas por coma
  • publisher Compañía o persona que publicaron el juego (separadas por coma)
  • average_rating Calificación promedio en Board Game Geek
  • users_rated Número de usuarios que calificaron el juego
head(board_games)

Colnames de nuestro dataset

Después de una rápida observación, ejecutamos los siguientes comandos para confirmación:

colnames(board_games)
##  [1] "game_id"        "description"    "image"          "max_players"   
##  [5] "max_playtime"   "min_age"        "min_players"    "min_playtime"  
##  [9] "name"           "playing_time"   "thumbnail"      "year_published"
## [13] "artist"         "category"       "compilation"    "designer"      
## [17] "expansion"      "family"         "mechanic"       "publisher"     
## [21] "average_rating" "users_rated"

Tipo de variables

Usando data explorer observamos el tipo de variables, casi tenemos el mismo porcentaje para las discretas y continua, y tenemos un bajo porcentaje de missing values:

  • Sólo el 0.99% de las filas están completas,
  • tenemos 11.54% de observaciones faltantes, es decir, dado que solo tenemos 0.99% de las filas completas, solo hay 10.55% de observaciones faltantes del total.

Estos valores faltantes nos podrán general problemas para analizar los datos, veamos un poco los perfiles que faltan.

plot_intro(board_games)

Missing plot

Para visualizar el perfil de los datos faltantes podemos utilizar la función plot_missing(). En la visualización debajo, podemos ver que la variables compilation y expansion, son las que les falta información, encontramos de que sólo el 2.63% (compilation), 16.54% (expansion) de nuestras filas estén completas y probablemente esta varible no sea de mucha infomación. Por tanto la podemos eliminar de nuestro dataframe, ahorita mismo!!

plot_missing(board_games)

Eliminamos la columna que tiene más missing values

Eliminamos compilation y expansion de nuestro dataframe:

final_board_games <- drop_columns(board_games, c("description", "image", "name", "thumbnail", "game_id", "compilation","expansion", "family", "artist", "mechanic"))
final_board_games <- drop_columns(final_board_games, c("designer", "publisher"))
colnames(final_board_games)
##  [1] "max_players"    "max_playtime"   "min_age"        "min_players"   
##  [5] "min_playtime"   "playing_time"   "year_published" "category"      
##  [9] "average_rating" "users_rated"
final_board_games <- na.omit(final_board_games) 

Ánalisis de Correlación

Podemos ver la más alta correlación en estas variables:

  • min_playtime-max_playtime
  • min_playtime-min_age
  • min_playtime-playing_time
  • average_rating-min_age
plot_correlation(na.omit(final_board_games), maxcat = 5L)
## Warning in dummify(data, maxcat = maxcat): Ignored all discrete features since
## `maxcat` set to 5 categories!

Ahora de una manera más detallada vamos a analizar las variables más correlacionadas entre sí. El top 10:

corr_cross(final_board_games, # name of dataset
  max_pvalue = 0.05, # display only significant correlations (at 5% level)
  top = 10 # display top 10 couples of variables (by correlation coefficient)
)
## Returning only the top 10. You may override with the 'top' argument
## Warning in theme_lares(legend = "top"): Font 'Arial Narrow' is not installed,
## has other name, or can't be found

### QQ plot

La gráfica Quantile-Quantile es una forma de visualizar la desvisión de una distribución de probabilidad específica.

Después de analizar estos gráficos, a menudo es beneficioso aplicar una transformación matemática (como logaritmo) para modelos como la regresión lineal. Para hacerlo, podemos usar la función plot_qq. De forma predeterminada, se compara con la distribución normal.

qq_data <- final_board_games[, c("min_playtime", "max_playtime", "min_age", "playing_time", "average_rating")]

plot_qq(qq_data, sampled_rows = 1000L)

En el gráfico, las columnas parecen sesgadas en ambas colas. Apliquemos una transformación logarítmica simple y grafiquemos de nuevo.

log_qq_data <- update_columns(qq_data, 1:5, function(x) log(x + 1))


plot_qq(log_qq_data, sampled_rows = 1000L)

Ánalisis Exploratorio de los Datos

Teniendo nuestras variables con mayor correlación vamos a graficarlas con geom point..:

  • min_playtime-min_age
final_board_games %>%  ggplot(aes(x = min_playtime, y = min_age)) + 
  geom_point()

  • average_rating-min_age
final_board_games %>%  ggplot(aes(x = average_rating, y = min_age)) + 
  geom_point()

  • average_rating-playing_time
final_board_games %>%  ggplot(aes(x = playing_time, y = average_rating)) + 
  geom_point()

  • users_rated-average_rating
final_board_games %>%  ggplot(aes(x = users_rated, y = average_rating)) + 
  geom_point()

###Using vtree para explorar

Usamos vtree para observar la concentración de los datos por ejemplo para min_age, donde la mayoría de los datos se concentran en min_age de 8 años, 10 años y 12 años.

vtree(final_board_games, "min_age")

Usamos vtree para observar la concentración de los datos por ejemplo para min_players, tenemos casi un 69% para min 2 jugadores y cerca del 19% para min 3 jugadores.

vtree(final_board_games, "min_players")

Usamos vtree para observar la concentración de los datos por ejemplo para max_players, tenemos casi un 23% para máx 4 jugadores y cerca del 25% para máx 6 jugadores.

vtree(final_board_games, "max_players")

¿Que se ha hecho hasta ahora?

Se realizó una exploración de datos, donde primero eliminalos columnas que no tienen mucha significancia en la predicción de nuestra variable de calificación. Después vimos su correlación entre las existentes.

Se tiene más claro cuales son las variables más significativas a la predicción, se hizo una limpieza, tenemos datos más contundentes con los cuales comenzar nuestra predicción, menos outliers sobre todo.

Propuestas

Debido a que el problema intenta convencer a José de que sus juegos pudieron haber sido (en promedio) bien recibidos, y de cómo se espera que se reciban en un futuro, la variable de salida de nuestro problema es la calificación de los usuarios del sitio web. Esto puede hacerse de dos maneras: una regresión y tomar la calificación como una variable continua, o redondear y tomarlo como problema de clasificación (calificación discreta de 0 a 10). Las propuestas para estos casos son

Regresión

  • Support Vector Regression
  • Random Forest
  • Regresión lineal múltiple

Clasificación

  • Support Vector Machine
  • Random Forest
  • Multilayer perceptron

Vamos a suponer que a la comunidad de juegos de mesa no les importa tanto el historial del autor del juego ni quién lo publique, por lo que esas columnas se eliminarían del análisis. Si José ve que sus juegos no hubieran gustado, al menos podrá tener un modelo con el cuál puede saber qué es lo que suele gustarle a la gente, por lo que podría hacer investigación de seguimiento para entablar las causas raíces.

Modelado

Primero hacemos la separación de los datos en train y test. Todos los modelos usarán los mismos subconjuntos para poder evaluarlos y compararlos en un terreno nivelado.

library(caTools)
set.seed(0)
split = sample.split(final_board_games, SplitRatio=0.6)
data.train = subset(final_board_games, split=TRUE)
data.test = subset(final_board_games, split=FALSE)

Support Vector Regression

library(caret)
library(doParallel)
set.seed(0)
control = trainControl(method="repeatedcv", repeats=5, search="random")
registerDoParallel(cores = parallel::detectCores() - 1)
model.svr = train(average_rating ~ ., data = drop_columns(data.train, "category"),
               method = "svmRadial",
               tuneLength = 15,
               metric = "RMSE",
               preProc = c("center", "scale"),
               trControl = control)
model.svr
## Support Vector Machines with Radial Basis Function Kernel 
## 
## 1200 samples
##    8 predictor
## 
## Pre-processing: centered (8), scaled (8) 
## Resampling: Cross-Validated (10 fold, repeated 5 times) 
## Summary of sample sizes: 1080, 1080, 1080, 1080, 1080, 1080, ... 
## Resampling results across tuning parameters:
## 
##   sigma       C             RMSE       Rsquared    MAE      
##   0.01226831   45.77096245  0.5971698  0.28603519  0.4569200
##   0.01450086  432.22566749  0.6077075  0.27828915  0.4600209
##   0.01733709    0.08424009  0.6385926  0.22166352  0.4933061
##   0.01797172    0.68418148  0.6089168  0.26137934  0.4676323
##   0.01949306   53.19382628  0.5923793  0.29802023  0.4532379
##   0.03197837   97.46893089  0.6050052  0.27990795  0.4595333
##   0.04891373    0.09331815  0.6188100  0.25343570  0.4756074
##   0.08517855    1.13103822  0.5900931  0.30271546  0.4517433
##   0.09135066   15.15147202  0.5944384  0.29497671  0.4532882
##   0.45152266  986.00398192  1.0261372  0.09002466  0.6915994
##   0.61653904    0.15882372  0.6108620  0.26636552  0.4694599
##   1.29998370   10.85267954  0.6525816  0.20588346  0.5030971
##   1.34663993    0.16233196  0.6224801  0.24125207  0.4783713
##   1.35594685    0.51325259  0.6090114  0.25717566  0.4658292
##   4.87616608    0.47422243  0.6315189  0.20311225  0.4874107
## 
## RMSE was used to select the optimal model using the smallest value.
## The final values used for the model were sigma = 0.08517855 and C = 1.131038.
plot_qq(predict(model.svr, newdata=data.test) - data.test$average_rating)

H2O Models

Inicializar H2O

Creamos el clusgter local con todos los cores disponibles de la siguiente forma: Se eliminan los datos del cluster por si ya había sido inicializado. Tras iniciar el cluster (local), se muestran por pantalla sus características, entre las que están: el número de cores activados (4), la memoria total del cluster (5.32 GB), el número de nodos (1 porque se está empleando un único computador) y el puerto con el que conectarse a la interfaz web de H2O (http://localhost:54321/flow/index.html).

# inicialización de h2o
h2o.init(
  ip = "localhost",
  # -1 indica que se empleen todos los cores disponibles.
  nthreads = -1,
  # Máxima memoria disponible para el cluster.
  max_mem_size = "6g"
)
##  Connection successful!
## 
## R is connected to the H2O cluster: 
##     H2O cluster uptime:         7 minutes 36 seconds 
##     H2O cluster timezone:       America/Mexico_City 
##     H2O data parsing timezone:  UTC 
##     H2O cluster version:        3.32.1.3 
##     H2O cluster version age:    1 month and 23 days  
##     H2O cluster name:           H2O_started_from_R_Gabo_ljy373 
##     H2O cluster total nodes:    1 
##     H2O cluster total memory:   6.00 GB 
##     H2O cluster total cores:    12 
##     H2O cluster allowed cores:  12 
##     H2O cluster healthy:        TRUE 
##     H2O Connection ip:          localhost 
##     H2O Connection port:        54321 
##     H2O Connection proxy:       NA 
##     H2O Internal Security:      FALSE 
##     H2O API Extensions:         Amazon S3, Algos, AutoML, Core V3, TargetEncoder, Core V4 
##     R Version:                  R version 4.1.0 (2021-05-18)
h2o.removeAll()
h2o.no_progress()

Carga de datos -Separación de training, validación y test

La carga de datos puede hacerse directamente al cluster H2O, o bien cargándolos primero en memoria en la sesión de R y después transfiriéndolos. La segunda opción no es aconsejable si el volumen de datos es muy grande.

Para nuestro caso el conjunto de datos de turbines es suficientemente pequeño y lo podemos almacenar en memoria, por tanto lo podemos llamar con la siguiente función.

Antes de hacer la separación tengamos claro la diferencia entre estas particiones del conjunto de datos:

Datos de train: la muestra de los datos utilizada para ajustar el modelo.

Datos de validación: la muestra de datos que se utiliza para proporcionar una evaluación imparcial de un ajuste de modelo en el conjunto de datos de train mientras se ajustan los hiperparámetros del modelo. La evaluación se vuelve más sesgada a medida que la habilidad del conjunto de datos de validación se incorpora a la configuración del modelo.

Datos de test: la muestra de datos utilizada para proporcionar una evaluación imparcial de un ajuste final del modelo en el conjunto de datos de entrenamiento.

La función h2o.splitFrame() realiza particiones aleatorias, pero no permite hacerlas de forma estratificada, por lo que no asegura que la distribución de clases de variable respuesta sea igual en todas particiones. Esto puede ser problemático con datos muy desbalanceados (alguno de los grupos es muy minoritario).

En el momento en que consideremos la validación, debemos agregar en los ratios el porcentaje de la validación, en este caso será train (60%), validación (20%) y test (20%). En la semilla se le agrega el el numeral 4 y se adiciona un nuevo subconjunto de datos, entendiendo que el 1 es train, el 2 es validación y el 3 es test.

datos_h2o <- as.h2o(x = final_board_games, destination_frame = "datos_h2o")

datos_train_h2o <- as.h2o(x = data.train, key = "datos_train_h2o")
datos_valid_h2o <- as.h2o(x = data.test, key = "datos_valid_h2O")

Random Forest

La función para este modelo en h2o es h2o.randomForest. Dentro de ella debemos de especificar los datos de train que convertimos dentro de h2o y, si así lo queremos los datos de validación. Para cuando no queremos utilizar datos de validación esta línea se omite dentro del modelo cambia la partición del conjunto de datos. Se descartan las columnas categóricas , usamos solo las númericas para este random forest, también quitamos el object_id, solo nos interesa el rango x = c(1, 2, 3, 4, 5, 6, 7, 8, 10), y sy predicción que es la y = 9.

model.h2o.rf = h2o.randomForest(
  training_frame = datos_train_h2o,
  validation_frame = datos_valid_h2o,
  x = c(1, 2, 3, 4, 5, 6, 7, 8, 10),
  y = 9,
  model_id = "rf_covType_v1",
  ntrees = 200,
  stopping_rounds = 2,
  score_each_iteration = T,
  seed = 26
)
## Warning in .h2o.processResponseWarnings(res): Dropping bad and constant columns: [category].
summary(model.h2o.rf)
## Model Details:
## ==============
## 
## H2ORegressionModel: drf
## Model Key:  rf_covType_v1 
## Model Summary: 
##   number_of_trees number_of_internal_trees model_size_in_bytes min_depth
## 1              24                       24              181371        19
##   max_depth mean_depth min_leaves max_leaves mean_leaves
## 1        20   19.95833        519        648   596.62500
## 
## H2ORegressionMetrics: drf
## ** Reported on training data. **
## ** Metrics reported on Out-Of-Bag training samples **
## 
## MSE:  0.3763041
## RMSE:  0.6134363
## MAE:  0.4666793
## RMSLE:  0.08950471
## Mean Residual Deviance :  0.3763041
## 
## 
## H2ORegressionMetrics: drf
## ** Reported on validation data. **
## 
## MSE:  0.07822108
## RMSE:  0.2796803
## MAE:  0.2091356
## RMSLE:  0.04187238
## Mean Residual Deviance :  0.07822108
## 
## 
## 
## 
## Scoring History: 
##             timestamp   duration number_of_trees training_rmse training_mae
## 1 2021-07-12 22:21:57  0.009 sec               0            NA           NA
## 2 2021-07-12 22:21:57  0.057 sec               1       0.77049      0.58470
## 3 2021-07-12 22:21:57  0.068 sec               2       0.76633      0.57900
## 4 2021-07-12 22:21:57  0.080 sec               3       0.77019      0.58158
## 5 2021-07-12 22:21:57  0.092 sec               4       0.75403      0.56547
##   training_deviance validation_rmse validation_mae validation_deviance
## 1                NA              NA             NA                  NA
## 2           0.59366         0.51179        0.28043             0.26193
## 3           0.58726         0.42483        0.26591             0.18048
## 4           0.59319         0.38858        0.26216             0.15099
## 5           0.56855         0.35855        0.24822             0.12856
## 
## ---
##              timestamp   duration number_of_trees training_rmse training_mae
## 20 2021-07-12 22:21:57  0.266 sec              19       0.62501      0.47443
## 21 2021-07-12 22:21:57  0.279 sec              20       0.62198      0.47202
## 22 2021-07-12 22:21:57  0.293 sec              21       0.61751      0.46833
## 23 2021-07-12 22:21:57  0.307 sec              22       0.61407      0.46697
## 24 2021-07-12 22:21:57  0.321 sec              23       0.61315      0.46671
## 25 2021-07-12 22:21:57  0.336 sec              24       0.61344      0.46668
##    training_deviance validation_rmse validation_mae validation_deviance
## 20           0.39064         0.28025        0.20831             0.07854
## 21           0.38686         0.27978        0.20910             0.07828
## 22           0.38132         0.27927        0.20869             0.07799
## 23           0.37708         0.27917        0.20867             0.07794
## 24           0.37595         0.27978        0.20909             0.07827
## 25           0.37630         0.27968        0.20914             0.07822
## 
## Variable Importances: (Extract with `h2o.varimp`) 
## =================================================
## 
## Variable Importances: 
##         variable relative_importance scaled_importance percentage
## 1    users_rated         3342.581055          1.000000   0.384123
## 2 year_published         1283.283447          0.383920   0.147473
## 3        min_age          867.435059          0.259511   0.099684
## 4   max_playtime          832.819092          0.249154   0.095706
## 5    max_players          726.956238          0.217484   0.083541
## 6   playing_time          705.895447          0.211183   0.081120
## 7   min_playtime          531.880310          0.159123   0.061123
## 8    min_players          410.990631          0.122956   0.047230

Gradient Boosting Machines (GBM)

Primero haremos todas la configuraciones predeterminadas y luego comenzaremos a hacer algunos cambios donde se describen los parámetros y los valores predeterminados.

Podemos observar una estructura muy similar a la del random forest, ahora utilizaremos la función h2o.gbm.. NOTA: En la mayoría de los algorimos el primero es para regresión y el segundo para clasificación.

gbm_model <- h2o.gbm(
  training_frame = datos_train_h2o, # datos de h2o para training
  validation_frame = datos_valid_h2o, # datos de h2o para validación (no es requerido)
  x = c(1, 2, 3, 4, 5, 6, 7, 8, 10),, # Las columnas predictoras, por índice
  y = 9,    # La columna que queremos predecir, variable objetivo
  model_id = "gbm_covType1", # nombre del modelo en h2o
  seed = 2000000   # Establecer una semilla aleatoria para que se pueda reproducir
) 
## Warning in .h2o.processResponseWarnings(res): Dropping bad and constant columns: [category].
summary(gbm_model)
## Model Details:
## ==============
## 
## H2ORegressionModel: gbm
## Model Key:  gbm_covType1 
## Model Summary: 
##   number_of_trees number_of_internal_trees model_size_in_bytes min_depth
## 1              50                       50               14873         5
##   max_depth mean_depth min_leaves max_leaves mean_leaves
## 1         5    5.00000          8         30    19.02000
## 
## H2ORegressionMetrics: gbm
## ** Reported on training data. **
## 
## MSE:  0.2185903
## RMSE:  0.4675364
## MAE:  0.3519328
## RMSLE:  0.06912309
## Mean Residual Deviance :  0.2185903
## 
## 
## H2ORegressionMetrics: gbm
## ** Reported on validation data. **
## 
## MSE:  0.2185903
## RMSE:  0.4675364
## MAE:  0.3519327
## RMSLE:  0.0691231
## Mean Residual Deviance :  0.2185903
## 
## 
## 
## 
## Scoring History: 
##             timestamp   duration number_of_trees training_rmse training_mae
## 1 2021-07-12 22:21:58  0.007 sec               0       0.70250      0.55211
## 2 2021-07-12 22:21:58  0.011 sec               1       0.67528      0.52937
## 3 2021-07-12 22:21:58  0.015 sec               2       0.65160      0.50987
## 4 2021-07-12 22:21:58  0.018 sec               3       0.63177      0.49330
## 5 2021-07-12 22:21:58  0.022 sec               4       0.61405      0.47786
##   training_deviance validation_rmse validation_mae validation_deviance
## 1           0.49351         0.70250        0.55211             0.49351
## 2           0.45600         0.67528        0.52937             0.45600
## 3           0.42459         0.65160        0.50987             0.42459
## 4           0.39913         0.63177        0.49330             0.39913
## 5           0.37706         0.61405        0.47786             0.37706
## 
## ---
##              timestamp   duration number_of_trees training_rmse training_mae
## 46 2021-07-12 22:21:58  0.170 sec              45       0.47172      0.35544
## 47 2021-07-12 22:21:58  0.173 sec              46       0.47034      0.35458
## 48 2021-07-12 22:21:58  0.176 sec              47       0.46927      0.35393
## 49 2021-07-12 22:21:58  0.179 sec              48       0.46884      0.35334
## 50 2021-07-12 22:21:58  0.182 sec              49       0.46844      0.35295
## 51 2021-07-12 22:21:58  0.185 sec              50       0.46754      0.35193
##    training_deviance validation_rmse validation_mae validation_deviance
## 46           0.22252         0.47172        0.35544             0.22252
## 47           0.22122         0.47034        0.35458             0.22122
## 48           0.22022         0.46927        0.35393             0.22022
## 49           0.21981         0.46884        0.35334             0.21981
## 50           0.21944         0.46844        0.35295             0.21944
## 51           0.21859         0.46754        0.35193             0.21859
## 
## Variable Importances: (Extract with `h2o.varimp`) 
## =================================================
## 
## Variable Importances: 
##         variable relative_importance scaled_importance percentage
## 1    users_rated          896.666321          1.000000   0.516416
## 2   max_playtime          228.801926          0.255170   0.131774
## 3 year_published          179.416794          0.200093   0.103331
## 4        min_age          148.822052          0.165973   0.085711
## 5    max_players          129.632812          0.144572   0.074659
## 6   min_playtime          104.335167          0.116359   0.060090
## 7    min_players           48.491657          0.054080   0.027928
## 8   playing_time            0.157314          0.000175   0.000091

Scoring del modelo

Podemos ver la evolución del modelo, para evaluar cómo aprende el modelo a medida que se añaden nuevos árboles al ensamble.

h2o almacena las métricas de entrenamiento y test bajo el nombre de scoring. Los valores se encuentran almacenados dentro del modelo.

scoring <- as.data.frame(gbm_model@model$scoring_history)
head(scoring)

Importancia Variables del modelo

En los modelos GBM, se puede estudiar la influencia de los predictores cuantificando la reducción total de error cuadrático que ha conseguido cada predictor en el conjunto de todos los árboles que forman el modelo.

importancia <- as.data.frame(gbm_model@model$variable_importances)
importancia

ggplot variables importancia del modelo

ggplot(data = importancia,
       aes(x = reorder(variable, scaled_importance), y = scaled_importance)) +
  geom_col() +
  coord_flip() +
  labs(title = "Importancia de los predictores en el modelo GBM",
       subtitle = "Importancia en base a la reducción del error cuadrático medio",
       x = "Predictor",
       y = "Importancia relativa") +
  theme_bw()

Modelo GBM alternativo

En los modelos GBM, se puede estudiar la influencia de los predictores cuantificando la reducción total de error cuadrático que ha conseguido cada predictor en el conjunto de todos los árboles que forman el modelo.

gbm_model_2 <- h2o.gbm(
  training_frame = datos_train_h2o, # datos de h2o para training
  validation_frame = datos_valid_h2o, # datos de h2o para validación (no es requerido)
  x = c(2:3,5:11), # Las columnas predictoras, por índice
  y = 4,    # La columna que queremos predecir, variable objetivo
  model_id = "gbm_covType1", # nombre del modelo en h2o
  ntrees = 200, 
  max_depth = 30,
  stopping_rounds = 2,
  stopping_tolerance = 1e-2,
  seed = 2000000   # Establecer una semilla aleatoria para que se pueda reproducir
) 
## Warning in .h2o.processResponseWarnings(res): Dropping bad and constant columns: [category].
## early stopping is enabled but neither score_tree_interval or score_each_iteration are defined. Early stopping will not be reproducible!.

Métricas

gbm_model_2@model$validation_metrics
## H2ORegressionMetrics: gbm
## ** Reported on validation data. **
## 
## MSE:  0.007926617
## RMSE:  0.08903155
## MAE:  0.05606627
## RMSLE:  0.03122496
## Mean Residual Deviance :  0.007926617

Predicciones y error

Una vez hemos ajustado el modelo, se puede predecir nuevas observaciones y estimar el error de test.

# Predictores para el modelo de random forest
predicciones <- h2o.predict(
  object = model.h2o.rf,
  newdata = datos_valid_h2o
)
head(predicciones)
# Predictores para el modelo de GBM
predicciones_2 <- h2o.predict(
  object = gbm_model,
  newdata = datos_valid_h2o
)
head(predicciones_2)

Comparasión

En total se tuvieron 4 modelos: Support Vector Regression, Random Forest, Gradient Boosting Machine y un GBM alternativo. Revisemos sus errores de entrenamiento y de prueba.

svr.rmse.train = min(model.svr$results$RMSE)
svr.rmse.test = ModelMetrics::rmse(predict(model.svr, newdata=data.test), data.test$average_rating)

rf.rmse.train = tail(model.h2o.rf@model$scoring_history$training_rmse, 1)
rf.rmse.test = tail(model.h2o.rf@model$scoring_history$validation_rmse, 1)

gbm1.rmse.train = tail(gbm_model@model$scoring_history$training_rmse, 1)
gbm1.rmse.test = tail(gbm_model@model$scoring_history$validation_rmse, 1)

gbm2.rmse.train = tail(gbm_model_2@model$scoring_history$training_rmse, 1)
gbm2.rmse.test = tail(gbm_model_2@model$scoring_history$validation_rmse, 1)

De izquierda a derecha: RMSE de entrenamiento de SVR, RF, GBM1 y GBM2

barplot(c(svr.rmse.train, rf.rmse.train, gbm1.rmse.train, gbm2.rmse.train))

De izquierda a derecha: RMSE de validación de SVR, RF, GBM1 y GBM2

barplot(c(svr.rmse.test, rf.rmse.test, gbm1.rmse.test, gbm2.rmse.test))

Recordemos que todos los modelos usan el mismo subconjunto de entrenamiento y de validación, y todos presentan una retroalimentación para la optimización de hiperparámetros. Parece que el mejor modelo es el GBM2, pues tiene un error de entrenamiento y de validación mucho más bajos que los otros.

Conclusiones

La exploración de datos es una fase muy importante en el ciclo de vida de un proyecto de ciencia de datos. El entender la distribución de las variables te da una idea mucho más clara de qué es lo que podrías usar para predecir la salida que se necesita; aunque el entendimiento del negocio es una fase que puede tomar un tiempo más largo (nosotros tuvimos la suerte de que ya entendíamos cómo funcionaba el sitio web en el que se basa el conjunto de datos que usamos).

Las mil y una formas de implementar un modelo predictivo también se convierten en una barrera para seguir el proyecto: ¿cuál de todas las opciones es la mejor para el problema que se tiene? ¿Cómo justificas usar un Random Forest contra una red neuronal? (Seguramente con práctica y pericia).

Referencias